搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Java架构师必看
利用Spark MLIB实现电影推荐
利用Spark MLIB实现电影推荐源码及数据集：https://github.com/luo948521848/BigData Spark 机器学习库MLLib MLlib是Spark的机器学习（ Spark 机器学习库从 1.2 版本以后被分为两个包 •spark.mllib包含基于RDD的原始算法API。 Spark官方推荐使用spark.ml。如果新的算法能够适用于机器学习管道的概念，就应该将其放到spark.ml包中，如：特征提取器和转换器。 import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.rdd } else { ratings } } } 将项目打包成jar格式上传到Spark集群中，注意上传之后： Spark 提交任务时，报: Invalid signature
1.2K30发布于 2021-07-22
来自专栏岑玉海
Spark的机器学习算法mlib的例子运行
　　Spark自带了机器学习的算法mlib，页面网址 http://spark.incubator.apache.org/docs/latest/mllib-guide.html 　　但是运行的时候，我是这么解决的，方法不是很好，我修改了spark-env.sh这个文件，添加了SPARK_CLASSPATH=/usr/lib/spark/ext/hadoop-lzo-0.5.0.jar这句话就ok了这次是遇到了jar包的问题，Spark搭配的是hadoop1.0.4，搭配hadoop2.2.0的时候就可能会出现这个问题，先放一下错误信息，方便大家搜索。自己下的话，它也下了commons-io-2.1.jar这个jar包，但是它并没有使用这个jar包，编译过的Spark会把所需的jar包全部合并到一起，最后打成一个类似spark-assembly_2.9.3 jar -cvf spark-assembly_2.9.3-0.8.1-incubating-hadoop2.2.0.jar *; 　　替换掉原来的jar包就运行就正常了。
1K50发布于 2018-02-28
来自专栏大数据智能实战
spark mlib中机器学习算法的测试（SVM，KMeans, PIC, ALS等）
在学习spark mlib机器学习方面，为了进行算法的学习，所以对原有的算法进行了试验。从其官网（http://spark.apache.org/docs/latest/mllib-guide.html）上进行了相关文档的介绍学习，并通过其给定的例子包中相关进行测试。中都不支持SVM的）（2）Kmeans算法测试 (3) LDA算法测试（4）PIC算法（超强的迭代聚类算法）（5）推荐系统的ALS算法测试（利用movie lens数据）同样的数据，用spark (6) 关联挖掘（FPGrowth算法）通过之前的mahout与spark的学习，总体上mahout用起来非常不方便，而spark开发方便，速度更高效
56620编辑于 2022-05-07
来自专栏流川疯编写程序的艺术
大数据处理实践探索 ---- 大数据机器学习：spark mlib 【简介】
Spark 立足于内存计算，天然的适应于迭代式计算。即便如此，对于普通开发者来说&
66010发布于 2021-03-15
来自专栏流川疯编写程序的艺术
大数据处理实践探索 ---- 大数据机器学习：spark mlib 【编程实践预测收入】
数据导入 spark 环境加载基本处理 2.进行主成分分析（PCA） 3.训练分类模型并预测居民收入 4.超参数调优 ---- 1.
59710发布于 2021-03-15
来自专栏大数据技术学习
大数据研究报告：Spark最受欢迎，机器学习库MLib采用率持续上涨
使用大数据分析；Spark，MapReduce和Yarn是当今最流行的三种大数据框架；机器学习继续获得更多的行业支持和投资计划，Spark Machine Learning Library（MLib Spark是最受欢迎的的数据框架，SparkSQL是最受欢迎的大数据访问方式大数据框架 Spark成为最受欢迎的大数据框架，超过70%的受访者认为Spark重要或非常重要，排在二三位的是MapReduce 在大数据访问方式上Spark SQL、Hive、HDFS和Amazon S3最受欢迎。 73％的受访者认为Spark SQL对他们的分析策略至关重要，而超过30％的受访者认为Hive和HDFS也很重要。作为五大数据访问方式之一的亚马逊S3也具有较高认可程度。 MLib将主导整个机器学习机器学习继续获得更多的行业支持和投资计划，Spark 机器学习库（Spark Machine Learning Library，MLib）当前意46%使用率排在首位。
97430发布于 2018-07-16
来自专栏大数据工程师
Apache Spark有哪些局限性
Apache Spark框架的核心组件 Apache Spark框架由负责Spark功能的主要五个组件组成。 SparkStreaming – Spark流传输有助于处理实时流数据，即日志文件。它还包含用于处理数据流的API MLib机器学习– MLib是具有机器学习功能的Spark库。 Apache Spark Core API –它是Spark框架的内核，并提供了一个执行Spark应用程序的平台。下图清楚地显示了Apache Spark的核心组件。 Spark需要巨大的RAM来处理内存。Spark中的内存消耗非常高，因此用户友好性并不高。运行Spark所需的额外内存成本很高，这使Spark变得昂贵。 6.较少的算法在Apache Spark框架中，MLib是包含机器学习算法的Spark库。但是，Spark MLib中只有少数几种算法。因此，较少可用的算法也是Apache Spark的限制之一。
1K00发布于 2020-06-11
来自专栏鸿的学习笔记
写在 Spark3.0 发布之后的一篇随笔
Spark3.0 从2019年开始就说要准备发布了，然后就一直期待这个版本，毕竟对于 Spark 而言，这是一个大版本的跨越，从 2.4 直接到了 3.0，而之前发布都是 Spark2.0 到 Spark2.4 从 Spark3.0 补丁分布图来看，Spark SQL 和 Spark Core 加起来占据了62%的份额，而PySpark 占据了7%的份额，超过了 Mlib 的6%和 Structured Streaming Spark 更加重视机器学习，而且花了大量精力在 PySpark 和 Koalas （一种基于 Apache Spark 的 Pandas API 实现）上，而不是自带的 Mlib。在日常使用 Spark 的过程中，Spark SQL 相对于 2.0 才发布的 Structured Streaming 流计算模块要成熟稳定的多，但是在 Spark3.0 ，Spark SQL 依然占据了最多的更新部分反观 Mlib 没有多少的更新，甚至在 Databricks 博客中都没有提及，表示这 Spark 正在努力融入 Python 和 R 语言构建的机器学习社区，而不是非要让数据分析师们强行学习 Spark
1.4K10发布于 2020-06-23
来自专栏AILearning
Apache Spark 2.2.0 中文文档
官方网址: http://spark.apache.org 中文文档: http://spark.apachecn.org 花了大概两周左右的时间，在原来 Spark 2.0.2 中文文档版本的基础上 /spark-doc-zh#联系方式以下是 Spark 2.2.0 中文文档的目录索引: Apache Spark 2.2.0 官方文档中文版概述编程指南快速入门 Spark 编程指南 Spark Streaming 编程指南 DataFrames, DataSets 和 SQL Structured Streaming 编程指南 MLib(机器学习) – 该版本暂时还未计划翻译这些，如果需要阅读，请参阅 2.0.2 的中文文档的 MLib（机器学习）部分。 GraphX(图形处理) Spark(R on Spark) 部署集群概述提交应用 Spark Standalone Spark On Mesos Spark On YARN 更多配置监控
2.3K51发布于 2018-01-05
来自专栏Albert陈凯
StuQ 大数据工程师技能图谱
大数据工程师技能图谱大数据通用处理平台 Spark Flink Hadoop 分布式存储 HDFS 资源调度 Yarn Mesos 机器学习工具 Mahout Spark Mlib TensorFlow (Google 系) Amazon Machine Learning DMTK (微软分布式机器学习工具) 数据分析/数据仓库(SQL类) Pig Hive kylin Spark SQL, Spark DataFrame Impala Phoenix ELK ElasticSearch Logstash Kibana 消息队列 Kafka(纯日志类，大吞吐量) RocketMQ ZeroMQ ActiveMQ RabbitMQ 流式计算 Storm/JStorm Spark Streaming 日志收集 Scribe Flume 编程语言 Java Python Mlib TensorFlow (Google 系) Amazon Machine Learning DMTK (微软分布式机器学习工具) 算法一致性 paxos raft gossip
1.7K100发布于 2018-04-04
来自专栏祝威廉
如何基于SDL+TensorFlow/SK-Learn开发NLP程序
), ("I wish Java could use case classes", "java"), ("Logistic regression models are neat", "mlib "mlib"), ("Logistic regression models are neat", "java"), ("Logistic regression models are neat neat", "mlib") ], ["text", "preds"]) 接着我们希望把preds转化为数字（分类），text转化为向量，这样才能喂给算法。 neat", "mlib") ], ["text", "preds"]) # transform text column to sentence_matrix column which contains /bin/spark-submit \ --py-files spark-deep-learning-assembly-0.1.0-spark2.1.jar \ --jars spark-deep-learning-assembly
52730发布于 2018-08-27
来自专栏大数据开发
大数据开发：Spark数据处理核心架构
一方面是由于Spark在不断地完善，更适用于现阶段的大数据处理；另一方面则是因为Spark确实在大数据处理上表现出了强大的优势。根据Spark官方的定义，Spark是一个快速的、通用的分布式计算系统。简简单单一句话，其实对于Spark以及做出了相当精炼的总结，一个是快，一个是通用。通用，则是源于Spark提供高级API，如：Java、Scala、Python和R，通过多种语言可以实现Spark编程；并且Spark还提供多种高级工具，如：Spark SQL处理结构化数据、MLib处理机器学习 Spark系统的核心，也就是Spark Core，通过灵活丰富的接口，将SQL、Streaming、MLib、GraphX等等的请求，都转换成Spark Core分布式运行。核心组件Spark SQL，是Spark提供的SQL接口，用户使用Spark SQL可以像使用传统数据库一样使用SQL。例如：创建表、删除表、查询表、join表等。
85310发布于 2021-07-26
来自专栏养码场
15G的Hadoop基础入门干货大放送！从教程到工具包再到电子书，让你零基础也能学会！
关于上述图片的详细解析： Hadoop与Spark的区别蓝色部分，是Hadoop生态系统组件；黄色部分是Spark生态组件。 Hadoop提供了Spark许多没有的功能，比如分布式文件系统，而Spark 提供了实时内存计算，速度非常快。 HSQL未来可能会被Spark SQL替代，现在很多企业都是HIVE SQL和Spark SQL两种工具共存，当Spark SQL逐步成熟的时候，就有可能替换HSQL。 MapReduce也有可能被Spark 替换，趋势是这样，但目前Spark还不够成熟稳定，还有比较长的路要走。 Hadoop中的算法库Mahout正被Spark中的算法库MLib所替代，为了不落后，大家注意去学习Mlib算法库。 Storm会被Spark Streaming替换吗？
36710发布于 2018-08-13
来自专栏不温卜火
Spark SQL 快速入门系列(4) | RDD、DataFrame、DataSet三者的共性和区别
在 SparkSQL 中 Spark 为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看： RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) 如果同样的数据都给到这三个数据结构，他们分别计算之后在后期的 Spark 版本中，DataSet会逐步取代RDD和DataFrame成为唯一的 API 接口。一. 三者的区别 2.1 RDD RDD一般和spark mlib同时使用 RDD不支持sparksql操作 2.2 DataFrame 与RDD和Dataset不同，DataFrame每一行的类型固定为 mlib 同时使用 DataFrame与DataSet均支持 SparkSQL 的操作，比如select，groupby之类，还能注册临时表/视窗，进行 sql 语句操作 dataDF.createOrReplaceTempView
1.6K30发布于 2020-10-28
来自专栏CSDN技术头条
Apache Spark的承诺及所面临的挑战
Spark并非完美无瑕，目前发展到了什么程度呢？我们来一起看看Spark的优劣之处吧。 Spark的功能架构模型 ? 图片源自http://spark.apache.org/ 上图显示了Spark所包含的不同功能模块。 MLib：该模块提供了在海量数据集上运行机器学习算法的一组API。 GraphX：当处理由多个节点组成的图类型数据时，GraphX模块就派上用场了，主要的突出之处在于图形计算的内置算法。机器学习——由于Spark能够对线下数据进行批量处理，并且提供了机器学习类库（MLib），因而我们能够对数据集轻松地使用机器学习算法。另外，我们还可以在海量数据集中尝试各种不同的机器学习算法。把MLib与Streaming这两个库联合起来使用，就可以构建起机器学习系统。 Spark存在的一些问题尽管Spark在较短的一段时间内就流行了起来，但是其自身也存在着一些问题。
1.1K100发布于 2018-02-12
来自专栏米虫的家
BigData--大数据技术之Spark机器学习库MLLib
(as of Spark 1.5). HDFS, HBase, or local files), making it easy to plug into Hadoop workflows. 1、Spark MLib介绍 MLlib -- https://mvnrepository.com/artifact/org.apache.spark/spark-mllib --> <dependency> <groupId>org.apache.spark scala package cn.buildworld.spark.ml import org.apache.spark import org.apache.spark.ml. ("MLib").getOrCreate() import spark.implicits._ //引入要包含的包并构建训练数据集 val training = spark.createDataFrame
1K10发布于 2020-09-24
来自专栏全栈程序员必看
什么是大数据开发？「建议收藏」
大数据开发其实分两种，第一类是编写一些Hadoop、Spark的应用程序，第二类是对大数据处理系统本身进行开发。第一类工作感觉更适用于data analyst这种职位吧，而且现在Hive Spark-SQL这种系统也提供SQL的接口。 Linux体系、Python编程语言核心用法、Hadoop离线计算原理、分布式数据库Hbase、数据仓库Hive、Flume分布式日志采集、zookeeper全局分布式锁、kafka分布式发布-订阅消息系统、spark Scala编程语言核心用法、Spark（sql、shell）大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习）大数据处理、Spark—Streaming大数据处理、Spark—Mlib 实现userCF+itemCF+LR+商品预测、决策树+随机森林+GBDT、支持向量机SVM、神经网络与深度学习、word2vec + lstm、als算法、kmeans + spark应用 + 交叉特征
1.2K10编辑于 2022-08-19
来自专栏Lansonli技术博客
2021年大数据Spark（二）：四大特点
Spark 四大特点 Spark 使用Scala语言进行实现，它是一种面向对、函数式编程语言，能够像操作本地集合一样轻松的操作分布式数据集。 Spark具有运行速度快、易用性好、通用性强和随处运行等特点。 Spark处理数据与MapReduce处理数据相比，有如下两个不同点：其一、Spark处理数据时，可以将中间处理结果数据存储到内存中；其二、Spark Job调度以DAG方式，并且每个任务Task 2014 年的如此Benchmark测试中，Spark 秒杀Hadoop，在使用十分之一计算资源的情况下，相同数据的排序上，Spark 比Map Reduce快3倍！通用性强在 Spark 的基础上，Spark 还提供了包括Spark SQL、Spark Streaming、MLib 及GraphX在内的多个工具库，我们可以在一个应用中无缝地使用这些工具库。
1.4K30发布于 2021-10-09
来自专栏加米谷大数据
大数据0基础学习有哪些阶段？
5、Spark生态体系 Scala编程语言、Spark大数据处理、Spark Streaming大数据处理、Spark—Mlib机器学习、Spark—GraphX。
50420发布于 2020-05-09
来自专栏加米谷大数据
10本值得你读的Apache Spark书籍
该书还演示了强大的内置库，例如MLib，Spark Streaming和Spark SQL。由于本书旨在提高您的实践知识，因此它还涵盖了批处理部署，交互式和流式应用程序。这是最好的Apache Spark书籍之一，讨论了优化和扩展Apache Spark应用程序时使用的最佳实践。 ? 本书针对的是已经掌握Apache Spark知识的人。 3.掌握Apache Spark 精通Apache Spark是最好的Apache Spark书籍之一，只有对Apache Spark有基本了解的人才能阅读。这本书涵盖了各种Spark技术和原理。这是最好的Apache Spark书籍之一，涵盖了用于不同类型任务的方法，例如配置和安装Apache Spark，设置开发环境，使用MLib构建推荐引擎等等。 ? 10.使用Spark进行大数据分析使用Spark进行大数据分析是针对初学者的另一本最佳Apache Spark书。它从轻轻地开始，然后重点介绍有用的主题，例如Spark流和Spark SQL。
5K10发布于 2020-06-02

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

利用Spark MLIB实现电影推荐

Spark的机器学习算法mlib的例子运行

spark mlib中机器学习算法的测试（SVM，KMeans, PIC, ALS等）

大数据处理实践探索 ---- 大数据机器学习：spark mlib 【简介】

大数据处理实践探索 ---- 大数据机器学习：spark mlib 【编程实践预测收入】

大数据研究报告：Spark最受欢迎，机器学习库MLib采用率持续上涨

Apache Spark有哪些局限性

写在 Spark3.0 发布之后的一篇随笔

Apache Spark 2.2.0 中文文档

StuQ 大数据工程师技能图谱

如何基于SDL+TensorFlow/SK-Learn开发NLP程序

大数据开发：Spark数据处理核心架构

15G的Hadoop基础入门干货大放送！从教程到工具包再到电子书，让你零基础也能学会！

Spark SQL 快速入门系列(4) | RDD、DataFrame、DataSet三者的共性和区别

Apache Spark的承诺及所面临的挑战

BigData--大数据技术之Spark机器学习库MLLib

什么是大数据开发？「建议收藏」

2021年大数据Spark（二）：四大特点

大数据0基础学习有哪些阶段？

10本值得你读的Apache Spark书籍

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

利用Spark MLIB实现电影推荐

Spark的机器学习算法mlib的例子运行

spark mlib中机器学习算法的测试（SVM，KMeans, PIC, ALS等）

大数据处理实践探索 ---- 大数据机器学习：spark mlib 【简介】

大数据处理实践探索 ---- 大数据机器学习：spark mlib 【编程实践 预测收入】

大数据研究报告：Spark最受欢迎，机器学习库MLib采用率持续上涨

Apache Spark有哪些局限性

写在 Spark3.0 发布之后的一篇随笔

Apache Spark 2.2.0 中文文档

StuQ 大数据工程师技能图谱

如何基于SDL+TensorFlow/SK-Learn开发NLP程序

大数据开发：Spark数据处理核心架构

15G的Hadoop基础入门干货大放送！从教程到工具包再到电子书，让你零基础也能学会！

Spark SQL 快速入门系列(4) | RDD、DataFrame、DataSet三者的共性和区别

Apache Spark的承诺及所面临的挑战

BigData--大数据技术之Spark机器学习库MLLib

什么是大数据开发？「建议收藏」

2021年大数据Spark（二）：四大特点

大数据0基础学习有哪些阶段？

10本值得你读的Apache Spark书籍

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

大数据处理实践探索 ---- 大数据机器学习：spark mlib 【编程实践预测收入】